Also unser nächstes Kapitel hier ist optimal control und reinforcement learning,
wobei ich das so entwickeln werde, dass ich einen kurzen Abfrist der Kontrolltheorie erzähle und
dann darauf übergehe, dass wir hier eben nicht vorgegebene Gleichungen haben, sondern durch
neuere gelernte Gleichungen haben, wo wir unsere optimalen Störungen einbauen wollen. Wie muss
das also angehen? Wir stellen uns ein technisches Problem jetzt vor, dass hier ist eine Windturbine,
die steht irgendwo vor Dänemark und die Frage jetzt heißt, wie kann ich das als dynamisches
System zu identifizieren? Wie kann ich rauskriegen, in welchem Zustand diese Turbine ist?
Und wie muss ich dann einen Controller machen, um die Turbine zu steuern? Und das ist sozusagen
die Frage, die wir da rein nach angucken müssen. Also warum ist das überhaupt ein Problem? Man
könnte sagen, die steht auch gut, da soll es halt möglichst viel Strom erzeugen. Naja, also erstens
ist so eine Turbine ein riesiges Objekt und um die genau kontrollieren zu können, muss man halt wissen,
wie die sich verhalten wird, wenn ich irgendwelche Einstellungen dabei ändere. Also wenn ich zum
Beispiel den Winkel von den Flügeln hier leicht ändere, wie schnell wird sich dann eben die
Drehgeschwindigkeit ändern, all solche Sachen. Das Zweite ist, in welchem Zustand ist die Turbine denn?
Da könnte man ja einfach sagen, ja das mess ich halt, ende. Ja, aber oft ist es so, dass die
Messung in der Gegenwart nicht vollständig charakterisiert, in welchem Zustand ein dynamisches
System ist, sondern man muss eine ganze Folge von Messungen angucken, um daraus zu akkumulieren,
in welchem inneren Zustand die ganzen Hidden-Variablen jetzt sind. Also schauen Sie, wenn Sie ein dynamisches
System haben, was Sie vollständig beobachten können, können Sie natürlich sagen, ich mess
alles und alles ist gut. Aber wenn das dynamisches System Hidden-Variablen hat, dann müssen Sie ja
die interne Größe von den Hidden-Variablen dadurch akkumulieren, dass Sie eben mehrere
Zeitschritte zusammenfassen. Also State Estimation ist auch ein Punkt für sich. Der dritte Punkt
davon ist, ja wie mache ich denn jetzt einen Controller? Ein Controller besteht ja nicht nur
darin, dass ich sage, also jetzt muss ich den Schalter so rumlegen, dann ist gut, nein, ich muss
ja eine Aktion planen, die nicht nur jetzt, sondern auch über einen ganzen Zeithorizont in die Zukunft
hinein dann optimal sein soll. Also mit den Fragen werden wir uns dann beschäftigen müssen und das
will ich jetzt am Anfang mal nicht mit den Neuromethoden machen, sondern so, wie ich Kontrolltheorie
erklären würde. Und wenn man Kontrolltheorie erklären will, da gibt es eigentlich sozusagen zwei Ansätze,
wie man das machen kann. Ich habe mich hier bemüht, den ersten Ansatz mal völlig auf eine Folie zu
quetschen, also deswegen ist die so voll. Da steht auch teilweise mehrfach dasselbe drauf.
Das muss man uns jetzt Stück für Stück angucken, sonst macht es keinen Sinn, was danach kommt. Also die
Aufgabe ist, ich habe ein dynamisches System, das steht hier. Und ich habe eine Zielvorstellung,
die 0 ist, also jetzt die Zukunft, also ist die Gegenwart, Entschuldigung, und groß T ist
irgend ein Wert in der Zukunft. Und ich frage mich, wie muss ich die Steuerungsgrößen u, angefangen
von der Gegenwart bis weit in die Zukunft hinein, wie muss ich die ändern, damit eben irgendeine
Reward Function l hier, damit die eben optimal wird. Und die Reward Function hängt eben nicht nur davon
ab, welche Kontrollgrößen ich jetzt steuere, sondern auch, wie sich daraufhin das dynamische
System verhält, sprich, wie sich die internal States von einem dynamischen System weiterentwickeln.
Also sehr wohl die Kontrollgrößen selber haben direkten Einfluss auf die Reward Function, weil
es könnte anstrengend sein, es könnte Geldkosten oder Energiekosten die Kontrollen auszuführen,
aber es ist eben auch die Reaktion des dynamischen Systems darauf, was eben der wichtige Teil in der
Funktion l ist. Und so will ich also nicht nur eine optimale Steuerung in der Gegenwart haben,
sondern ich will eine optimale Steuerung haben über einen ganzen Zeitfahrt hinweg, also von der
Gegenwart jetzt bis zu groß T minus eins in der Zukunft. Ja, warum man da nicht groß T schreibt,
so ein groß T minus eins sehen wir gleich noch. Und also das ist die Aufgabe. Das ist sozusagen
die Standardaufgabe optimal control unter der Bedingung, wenn sie diskrete Zeit haben. Wenn
sie optimal control als Mathematikvorlesung hören, dann kriegen sie das oft so angeboten,
dass sie nicht über diskrete Zeit reden, sondern über kontinuierliche Systeme. Da wurde dann also
jetzt hier stehen ds nach dt ist gleich F von s,u und hier unten das wäre keine Summe,
sondern wäre ein Integral von null bis groß T von s,u und so weiter und dann wieder zu Minimum.
Presenters
Zugänglich über
Offener Zugang
Dauer
01:10:30 Min
Aufnahmedatum
2021-04-09
Hochgeladen am
2021-04-09 18:46:17
Sprache
de-DE